Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
A machine learning model, under the influence of observed or unobserved confounders in the training data, can learn spurious correlations and fail to generalize when deployed. For image classifiers, augmenting a training dataset using counterfactual examples has been empirically shown to break spurious correlations. However, the counterfactual generation task itself becomes more difficult as the level of confounding increases. Existing methods for counterfactual generation under confounding consider a fixed set of interventions (e.g., texture, rotation) and are not flexible enough to capture diverse data-generating processes. Given a causal generative process, we formally characterize the adverse effects of confounding on any downstream tasks and show that the correlation between generative factors (attributes) can be used to quantitatively measure confounding between generative factors. To minimize such correlation, we propose a counterfactual generation method that learns to modify the value of any attribute in an image and generate new images given a set of observed attributes, even when the dataset is highly confounded. These counterfactual images are then used to regularize the downstream classifier such that the learned representations are the same across various generative factors conditioned on the class label. Our method is computationally efficient, simple to implement, and works well for any number of generative factors and confounding variables. Our experimental results on both synthetic (MNIST variants) and real-world (CelebA) datasets show the usefulness of our approach.
translated by 谷歌翻译
鉴于大规模系统的输出度量的意外变化,重要的是要回答发生变化的原因很重要:哪些输入导致了度量的变化?此类归因问题的一个关键组成部分是估计反事实:由于单个输入的指定变化,系统度量的(假设)变化。但是,由于系统部分之间的固有随机性和复杂的相互作用,很难直接对输出度量进行建模。我们利用系统的计算结构将建模任务分解为子部分,因此每个子部分对应于一个更稳定的机制,可以随着时间的推移准确地对其进行准确的建模。使用系统的结构还有助于将指标视为结构性因果模型(SCM)的计算,从而提供了一种原则上的估计反事实的方式。具体而言,我们提出了一种使用时间序列预测模型估算反事实的方法,并构建归因得分CF-Shapley,这与理想的公理一致,以归因于观察到的输出度量的变化。与过去关于因果沙普利值的工作不同,我们提出的方法可以归因于观察到的单个输出变化(而不是人口级效应),因此在模拟数据集上评估时提供了更准确的归因分数。作为现实世界应用,我们分析了一个查询AD匹配系统,其目的是归因于AD匹配密度的度量标准的观察到的变化。归因分数解释了来自不同查询类别的查询量和广告需求如何影响AD匹配密度,从而导致可行的见解,并发现外部事件(例如“ Cheetah Day”)在推动匹配密度中的作用(例如“ Cheetah Day”)。
translated by 谷歌翻译
在其表示中,已经发现接受过文本数据训练的神经网络模型编码不希望的语言或敏感属性。删除此类属性是不平凡的,因为属性,文本输入和学习的表示之间存在复杂的关系。最近的工作提出了事后和对抗方法,以从模型的表示中删除此类不需要的属性。通过广泛的理论和经验分析,我们表明这些方法可以适得其反:它们无法完全删除属性,在最坏的情况下,最终可能会破坏所有与任务相关的功能。原因是方法对探测分类器的依赖作为属性的代理。即使在最有利的条件下,当属性在表示空间中的特征可以提供100%的学习探测分类器时,我们证明事后或对抗方法将无法正确删除属性。这些理论含义通过经验实验在合成,多NLI和Twitter数据集的模型上证实。对于敏感的属性去除(例如公平性),我们建议您谨慎使用这些方法,并提出伪造度量,以评估最终分类器的质量。
translated by 谷歌翻译
从多个域收集的现实世界数据可以在多个属性上具有多个不同的分布变化。但是,域概括(DG)算法的最新进展仅关注对单个属性的特定变化。我们介绍了具有多属性分布变化的数据集,并发现现有的DG算法无法概括。为了解释这一点,我们使用因果图来根据虚假属性与分类标签之间的关系来表征不同类型的变化。每个多属性因果图都需要对观察到的变量进行不同的约束,因此,基于单个固定独立性约束的任何算法都不能在所有变化中正常工作。我们提出了因果自适应约束最小化(CACM),这是一种用于识别正则化的正确独立性约束的新算法。完全合成,MNIST和小型NORB数据集的结果,涵盖了二进制和多价值属性和标签,确认我们的理论主张:正确的独立性约束导致未见域的最高准确性,而不正确的约束则无法做到这一点。我们的结果表明,建模数据生成过程中固有的因果关系的重要性:在许多情况下,如果没有此信息,就不可能知道正确的正规化约束。
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
我们推出了一般,但简单,尖锐的界限,用于广泛的因果参数的省略可变偏置,可以被识别为结果的条件期望函数的线性功能。这些功能包括许多传统的因果推断研究中的调查目标,例如(加权)平均潜在结果,平均治疗效果(包括亚组效应,例如对处理的效果),(加权)平均值来自协变态分布的转变的衍生品和政策影响 - 所有是一般的非参数因果模型。我们的建设依赖于目标功能的riesz-frechet表示。具体而言,我们展示了偏差的绑定如何仅取决于潜在变量在结果中创建的附加变型以及用于感兴趣的参数的RIESZ代表。此外,在许多重要病例中(例如,部分线性模型中的平均治疗效果,或在具有二元处理的不可分配模型中),所示的界定依赖于两个易于解释的数量:非参数部分$ r ^ 2 $(Pearson的相关性与治疗和结果的未观察变量的比例“。因此,对省略变量的最大解释力(在解释处理和结果变化时)的简单合理性判断足以将整体界限放置在偏置的尺寸上。最后,利用脱叠机器学习,我们提供灵活有效的统计推理方法,以估计从观察到的分布识别的界限的组件。
translated by 谷歌翻译
神经网络利用数据中的因果关系和相关的关系,以学习优化给定性能标准的模型,例如分类准确性。这导致学习模型可能不一定反映输入和输出之间的真实因果关系。当在培训时可获得因果关系的域中,即使在学习优化性能标准时,神经网络模型也将这些关系保持为因果关系。我们提出了一种因果规则化方法,可以将这种因果域前瞻纳入网络,并支持直接和完全因果效应。我们表明这种方法可以推广到各种因果前导者的规范,包括给定输入特征的因果效果的单调性或针对公平的目的去除一定的影响。我们在11个基准数据集上的实验显示了这种方法在规则中规范学习的神经网络模型以保持所需的因果效果。在大多数数据集上,可以在不损害精度的情况下获得域名一致模型。
translated by 谷歌翻译
在神经科学领域,脑活动分析总是被认为是一个重要领域。精神分裂症(SZ)是一种严重影响世界各地人民的思想,行为和情感的大脑障碍。在Sz检测中被证明是一种有效的生物标志物的脑电图(EEG)。由于其非线性结构,EEG是非线性时间序列信号,并利用其进行调查,这是对其的影响。本文旨在利用深层学习方法提高基于EEG基于SZ检测的性能。已经提出了一种新的混合深度学习模型(精神分裂症混合神经网络),已经提出了卷积神经网络(CNN)和长短期存储器(LSTM)的组合。 CNN网络用于本地特征提取,LSTM已用于分类。所提出的模型仅与CNN,仅限LSTM和基于机器学习的模型进行了比较。已经在两个不同的数据集上进行了评估所有模型,其中数据集1由19个科目和数据集2组成,由16个科目组成。使用不同频带上的各种参数设置并在头皮上使用不同的电极组来进行几个实验。基于所有实验,显然提出的混合模型(SZHNN)与其他现有型号相比,拟议的混合模型(SZHNN)提供了99.9%的最高分类精度。该建议的模型克服了不同频带的影响,甚至没有5个电极显示出91%的更好的精度。该拟议的模型也在智能医疗保健和远程监控应用程序的医疗器互联网上进行评估。
translated by 谷歌翻译
机器学习(ML)系统的开发和部署可以用现代工具轻松执行,但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务,范围蠕变和未对准的目标,模型滥用和失败,以及昂贵的后果。另一方面,工程系统遵循明确定义的流程和测试标准,以简化高质量,可靠的结果的开发。极端是航天器系统,其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验(通过域名通过产品的研究),我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”(MLTRL)框架定义了一个原则的过程,以确保强大,可靠和负责的系统,同时为ML工作流程流线型,包括来自传统软件工程的关键区别。 MLTRL甚至更多,MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里,我们描述了通过生产化和部署在医学诊断,消费者计算机视觉,卫星图像和粒子物理学等领域,以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。
translated by 谷歌翻译